FM-DBSCAN: Ein effizienter, dichte-basierter Clustering-Algorithmus

نویسنده

  • Philipp Egert
چکیده

DBSCAN ist ein dichte-basierter Clustering-Algorithmus, der Cluster beliebiger Form auffindet und diese von Rauschen trennt. Aufgrund des quadratischen Aufwands ist DBSCAN für große Datenmengen jedoch oft ungeeignet. In dieser Arbeit wird deshalb ein effizienterer Algorithmus namens FM-DBSCAN vorgestellt, der für eine beliebige Distanzfunktion (Metrik) dasselbe Ergebnis wie DBSCAN liefert. Hierfür partitioniert FM-DBSCAN die Datenkollektion in Leader-Umgebungen, auf denen anschließend das Clustering durchgeführt wird. Erste Experimente mittels synthetischen Datenkollektionen zeigen, dass FM-DBSCAN um einen Faktor > 990 schneller als DBSCAN ist und auch wesentlich besser mit der Kollektionsgröße skaliert. Kategorien und Themenbeschreibungen I.5.3 [PATTERN RECOGNITION]: Clustering—Algorithms

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

EFM-DBSCAN: Ein baumbasierter Clusteringalgorithmus unter Ausnutzung erweiterter Leader-Umgebungen

DBSCAN ist ein dichte-basierter Clusteringalgorithmus, der beliebig geformte Cluster erkennt und sie von Rauschen trennt. Aufgrund der Laufzeit von O(n2) ist seine Anwendung jedoch auf kleine Datenkollektionen beschränkt. Um diesen Aufwand zu reduzieren, wurde der auf dem Konzept der Leader-Umgebung basierende Algorithmus FM-DBSCAN vorgestellt, der für beliebige Metriken dasselbe Clustering wie...

متن کامل

Pseudonyme Biometrik: Ein signatur-basierter Ansatz

Dieser Artikel stellt einen Ansatz zur Pseudonymisierung biometrischer Daten vor. Im Unterschied zu bisher bestehenden Ansätzen, setzt die Pseudonymisierung bereits bei der Berechnung der biometrischen Signatur an. Es werden Anforderungen und Vorausetzungen für ein derartiges Verfahren erarbeitet und anhand des Algorithmus von John Daugman ein Beispiel für die Anwendung des Ansatzes gegeben.

متن کامل

Complete Hierarchical Cut-Clustering: An Analysis of Guarantee and Quality

There are many algorithms for dividing a graph into parts, so-called clusters. An essential question is how dense these clusters are. This can be measured by the intra-cluster expansion. The cut-clustering algorithm as presented by Flake et al. [FTT04] provides a theoretical guarantee on the intra-cluster expansion, which for example greedy clustering approaches can not give, as calculating the...

متن کامل

بررسی مشکلات الگوریتم خوشه بندی DBSCAN و مروری بر بهبودهای ارائه‌شده برای آن

Clustering is an important knowledge discovery technique in the database. Density-based clustering algorithms are one of the main methods for clustering in data mining. These algorithms have some special features including being independent from the shape of the clusters, highly understandable and ease of use. DBSCAN is a base algorithm for density-based clustering algorithms. DBSCAN is able to...

متن کامل

Statistical Inference and Probabilistic Modelling for Constraint-Based NLP

In this paper we present a probabilistic model for constraint-based grammars and a method for estimating the parameters of such models from incomplete, i.e., unparsed data. Whereas methods exist to estimate the parameters of probabilistic context-free grammars from incomplete data ([2]), so far for probabilistic grammars involving context-dependencies only parameter estimation techniques from c...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2016